- 数据
- 分析
- 方法
数据越来越多,信息越来越深。
经验pk数据,分析无处不在,合理的值得存在。
没有最好的方法,只有最适合的方法。
2014-11-20
数据只有经过合理的分析,使用合适的方法,才可能得到较为符合实际的结论。
然而,事实是,对于无处不在的数据,只要用上一种方法,就能得到一个结论。
下面介绍几个分析角度,描述几个从客观数据到主观推断的风险。
- 换个视角(圈圈图)
- 相关性假象
- 一步到位的分析
- 辛普森悖论
par(mfrow = c(1, 2), ann = FALSE) plot(BinormCircle) smoothScatter(BinormCircle)
一个简单的方法,改变下观察视角:点的大小+放大
par(mfrow = c(1, 1)) plot(BinormCircle,pch=19,cex=0.01)
plot(身高~体重,d2)
plot(身高~体重,d2)ttext(d2[,2],d2[,3],d2[,1])
# 上证综指
getSymbols("^SSEC");SSEC=data.frame(SSEC)
## [1] "SSEC"
SSEC$t=rownames(SSEC);tail(SSEC)
## SSEC.Open SSEC.High SSEC.Low SSEC.Close SSEC.Volume ## 2014-11-27 2615.37 2631.40 2599.11 2630.05 364100 ## 2014-11-28 2629.63 2683.18 2622.06 2682.92 465900 ## 2014-12-01 2691.73 2720.74 2668.84 2680.74 446800 ## 2014-12-02 2667.82 2777.37 2665.69 2763.32 437700 ## 2014-12-03 2768.68 2824.18 2733.87 2779.74 562100 ## 2014-12-04 2783.47 2900.51 2772.43 2900.36 532700 ## SSEC.Adjusted t ## 2014-11-27 2630.05 2014-11-27 ## 2014-11-28 2682.92 2014-11-28 ## 2014-12-01 2680.74 2014-12-01 ## 2014-12-02 2763.32 2014-12-02 ## 2014-12-03 2779.74 2014-12-03 ## 2014-12-04 2900.36 2014-12-04
n=nrow(SSEC);x=1:n;y1=SSEC$SSEC.Volum;y2=SSEC$SSEC.Close;
twoord.plot(x,y1,x,y2,xlim=c(0,n),lylim=c(0,300000),rylim=c(2000,6000), lcol=4,rcol=2,xlab="name",ylab="volume",rylab="close",type=c("bar","b"),xticklab=SSEC$t,halfwidth=0.2)
plot(身高~体重,d2,axes=F,col="blue",pch=19,type='b',cex=2,xlab='',ylab='')
plot(x, y) abline(lm(y ~ x), col = "red")
plot(x, y, pch = z, col = rainbow(5)[z + 1]) for (i in z) abline(lm(y ~ x, subset = z == i), col = "darkgray")
+——-+——+——+
| 统计 | 有效| 无效 |
+——-+——+——+
| 新药 | 80 | 120 |
+——-+——+——+
| 安慰剂| 100 | 100 |
+——-+——+——+
RD = 80/200-100/200= -0.1
| 性别 | 男性 | 女性 | | ---- | -- | -- | -- | -- | | |有效|无效|有效|无效| | ---- | -- | -- | -- | -- | | 新药 | 35 |15 |45 |105 | RD男 = 35/50-90/150= 0.1 |安慰剂| 90 |60 |10 |40 | RD女 = 45/150-10/50= 0.1
最常用的图形
par(mfrow = c(1, 3)); hist(rnorm(100),col='blue');plot(rnorm(20),col='red'); plot(seq(1,10)+runif(10,min=0,max=15),type='b',col='green')
复杂的图形
复杂的图形-艺术与设计,京东数据汇
Magic Quadrant for BI and Analytics Platforms. by gartner
excel,
SPSS,
SAS,
matlab,
R,
weka,
python,
sql,hadoop,storm,spark,
… …
因地制宜,发挥所长。
[1]:谢益辉,2010,"统计图形和模拟视角下的模型理论解析".
[2]:达莱尔,廖颖林译,2002,《统计陷阱》.
[3]:耿直,2009,"如何从生命科学研究数据中挖掘因果关系和评价因果作用?"
[4]:刘德寰,李雪莲,2013,"大数据的风险和现存问题"